Hierarchical Text Classification using Methods from Machine Learning
نویسنده
چکیده
Due to the permantently growing amount of textual data, automatic methods for organizing the data are needed. Automatic text classification is one of this methods. It automatically assigns documents to a set of classes based on the textual content of the document. Normally, the set of classes is hierarchically structured but today’s classification approaches ignore hierarchical structures, thereby loosing valuable human knowledge. This thesis exploits the hierarchical organization of classes to improve accuracy and reduce computational complexity. Classification methods from machine learning, namely BoosTexter and the newly introduced CentroidBoosting algorithm, are used for learning hierarchies. In doing so, error propagation from higher level nodes and comparing decisions between independently trained leaf nodes are two problems which are considered in this thesis. Experiments are performed on the Reuters 21578, the Reuters Corpus Volume 1 and the Ohsumed data set, which are well known in literature. Rocchio and Support Vector Machines, which are state of the art algorithms in the field of text classification, serve as base line classifiers. Comparing algorithms is done by applying statistical significance tests. Results show that, depending on the structure of a hierarchy, accuracy improves and computational complexity decreases due to hierarchical classification. Also, the introduced model for comparing leaf nodes yields an increase in performance. Kurzfassung Durch die starke Zunahme textueller Daten entsteht die Notwendigkeit automatische Methoden zur Datenorganisation einzusetzten. Automatische Textklassifikation ist eine dieser Techniken. Sie ordnet Textdokumente auf inhaltlicher Basis automatisch einer definierten Menge von Klassen zu. Die Klassen sind meist hierarchisch strukturiert, wobei die meisten heutigen Klassifikationsansätze diese Struktur ignorieren. Dadurch geht a priori Information verloren. Die vorliegende Arbeit beschäftigt sich mit dem Ausnützen hierarchischer Strukturen zur Verbesserung von Genauigkeit und Zeitkomplexität. BoosTexter und der hier neu vorgestellte CenroidBooster, Algorithmen aus dem Bereich des maschinellen Lernens, werden als hierarchische Klassifikationsmethoden eingesetzt. Die bei hierarchischer Klassifikation entstehenden Probleme der Fehlerfortpflanzung von hierarchisch höheren Knoten und das Vergleichen von Entscheidungen aus unahängig trainierten Blättern werden dabei berücksichtigt. Die Verfahren werden anhand bekannter Datensätze, dem Reuters-21578, Reuters Corpus Volume 1 und Ohsumed Datensatz analysiert. Dabei dienen Support Vector Maschinen und Rocchio, beides State of the Art Techniken als Vergleichsbasis. Die Vergleiche zwischen Ergebnissen erfolgen anhand statistischer Signifikanztests. Die Ergebnisse zeigen, daß abhängig von der hierarchischen Struktur, Genauigkeit und Zeitkomplexität verbessert werden können. Der Ansatz zum Vergleich von unabhängig trainierten Blättern verbessert die Genauigkeit ebenfalls. I hereby certify that the work presented in this thesis is my own and that work performed by others is appropriately cited. Ich versichere hiermit, diese Arbeit selbständig verfaßt, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu haben. Danksagung Ich möchte an diesem Punkt meinen Eltern und Großeltern danken. Sie haben es mir ermöglicht, mein Studium und somit auch diese Arbeit in Angriff zu nehmen. Danke. Mein Dank gilt auch Professor Dr. Peter Auer, der mir die Gelegenheit gab, eine Diplomarbeit im Bereich des maschinellen Lernens zu verfassen und mir mit guten Ratschläge und Hinweisen zur Seite stand. Vielen herzliche Dank auch an meine Freundin Gisela Dösinger, auf deren Hilfe ich immer zählen konnte und daß sie, sowie meine Arbeitskollegen Wolfgang Kienreich und Vedran Sabol, immer ein offenes Ohr für mich hatte. Die letzte Danksagung gilt meinem Arbeitgeber, dem Know-Center, fr das zu Verfgung stellen von technischen und zeitliche Ressourcen. Der Weg ist das Ziel Michael Granitzer Graz, Austria, Oktober 2003
منابع مشابه
Mental Arithmetic Task Recognition Using Effective Connectivity and Hierarchical Feature Selection From EEG Signals
Introduction: Mental arithmetic analysis based on Electroencephalogram (EEG) signal for monitoring the state of the user’s brain functioning can be helpful for understanding some psychological disorders such as attention deficit hyperactivity disorder, autism spectrum disorder, or dyscalculia where the difficulty in learning or understanding the arithmetic exists. Most mental arithmetic recogni...
متن کاملFault Detection of Anti-friction Bearing using Ensemble Machine Learning Methods
Anti-Friction Bearing (AFB) is a very important machine component and its unscheduled failure leads to cause of malfunction in wide range of rotating machinery which results in unexpected downtime and economic loss. In this paper, ensemble machine learning techniques are demonstrated for the detection of different AFB faults. Initially, statistical features were extracted from temporal vibratio...
متن کاملImproving the Operation of Text Categorization Systems with Selecting Proper Features Based on PSO-LA
With the explosive growth in amount of information, it is highly required to utilize tools and methods in order to search, filter and manage resources. One of the major problems in text classification relates to the high dimensional feature spaces. Therefore, the main goal of text classification is to reduce the dimensionality of features space. There are many feature selection methods. However...
متن کاملActive Learning for Hierarchical Text Classification
Hierarchical text classification plays an important role in many real-world applications, such as webpage topic classification, product categorization and user feedback classification. Usually a large number of training examples are needed to build an accurate hierarchical classification system. Active learning has been shown to reduce the training examples significantly, but it has not been ap...
متن کاملHierarchical Text Categorization Using Coding Matrices
We discuss the task of ontology population as a machine learning problem with a large hierarchy of classes. Since many machine learning methods are designed primarily for two-class problems, it is desirable to transform the multiclass classification problem into several two-class problems. Coding matrices are a unifying formalism for describing such transformations. We present an approach for c...
متن کاملA Comparative Study of SVM and RF Methods for Classification of Alteration Zones Using Remotely Sensed Data
Identification and mapping of the significant alterations are the main objectives of the exploration geochemical surveys. The field study is time-consuming and costly to produce the classified maps. Therefore, the processing of remotely sensed data, which provide timely and multi-band (multi-layer) data, can be substituted for the field study. In this study, the ASTER imagery is used for altera...
متن کامل